Desarrolla
En pasos anteriores de esta guía has realizado la definición inicial de tu proyecto y has encontrado los datos de los que partir para llevarlo a cabo. Es el momento de ponerte manos a la obra y desarrollar tu proyecto.
Esta fase de tu trabajo va a variar mucho en función de las dimensiones y del tipo de proyecto que vayas a llevar a cabo. En cualquier caso, vamos a tratar de darte unas pautas generales sobre cómo trabajar con los datos y qué herramientas te pueden venir bien en un proyecto de este tipo.
Trata los datos
Filtra y resume
Una vez has descargado los datos, es el momento de comenzar a trabajar con ellos para obtener respuestas a las preguntas que nos planteábamos en la fase inicial. Hay aplicaciones que nos pueden ayudar en esta tarea; en concreto, si estamos trabajando con tablas de datos, nos pueden ser muy útiles las hojas de cálculo. Algunos ejemplos de aplicaciones de hojas de cálculo son:
- Google Hojas de cálculo (online, gratuito).
- LibreOffice Calc (Windows, Mac, Linux, gratuito).
- Microsoft Excel (Windows, Mac, de pago).
- Numbers (Mac, de pago).
Estos programas pueden abrir todos los archivos que organizan los datos en forma de tabla como, por ejemplo, xls, ods, csv... En los ficheros en formato CSV (Comma-Separated Values, en sus siglas en inglés), los valores de cada celda de la tabla vienen separados por un carácter en concreto, que habitualmente es una coma (,), un punto y coma (;) o un tabulador. Al abrir el fichero csv con el programa de hoja de cálculo, es necesario indicar cuál es el carácter separador que utiliza el fichero para que los datos se abran correctamente.
Los programas de hojas de cálculo ofrecen funcionalidades muy interesantes para trabajar con tablas de datos. Entre ellas, podemos destacar:
- Ordenar los datos de acuerdo a distintos criterios (alfabético, numérico...). Por ejemplo, si estás trabajando con la tabla de subvenciones concedidas por la Junta de Andalucía, puedes ordenarlas de mayor a menor importe para ver cuáles son las más cuantiosas.
- Filtrar los datos que cumplan una o varias condiciones (que contengan determinadas palabras, que estén entre dos fechas o rangos de valor específicos...). Por ejemplo, sobre esta misma tabla de datos, podemos filtrar sólo aquellas subvenciones que tienen como finalidad 'Creación de empresas'.
- Resumir los datos. A través de las funcionalidades de 'tabla dinámica' (Google Hojas de Cálculo y Excel) o 'piloto de datos' (LibreOffice), es posible obtener tablas resumen que nos ayuden a responder preguntas más complejas. Por ejemplo, podemos sumar cuánto dinero ha obtenido cada beneficiario en total en cada periodo o contar cuántas subvenciones se han concedido dentro de cada línea de subvenciones.
Además, las hojas de cálculo permiten generar gráficas sencillas, como veremos más adelante. Si necesitas más información sobre cómo utilizar las hojas de cálculo para trabajar con datos, te recomendamos que consultes nuestro tutorial:
También te puede interesar:
Refina y combina los datos
Al trabajar con conjuntos de datos que provienen de administraciones públicas comprobarás que en ocasiones los datos con los que trabajas contienen irregularidades y defectos que es necesario revisar y corregir. Este proceso se conoce como refinar los datos. Por ejemplo, en la tabla de subvenciones concedidas a la que nos referíamos en el punto anterior, puedes ver que hay un mismo programa que recibe tres denominaciones distintas: "ACCIONES PARA LA IGUALDAD Y PROMOCION DE LAS MU", "ACCIONES PARA LA IGUALDAD Y PROMOC. DE LAS MUJ." y "ACC. IGUALDAD Y PROMOC.MUJERES". De cara a tratar los datos en común (por ejemplo, para estudiar la evolución del importe subvencionado por la Junta de Andalucía en este ámbito), conviene que el programa tenga un único nombre.
Otras veces para tu proyecto te interesará combinar varias fuentes de datos. Por ejemplo, si quieres analizar la relación entre PIB per cápita y porcentajes de voto en las distintas poblaciones de España, probablemente necesitarás combinar una fuente de datos que contenga indicadores económicos y otra que contenga la información electoral.
Hay distintos programas que te pueden ayudar en esta tarea. Algunos de los más utilizados son:
- OpenRefine (Windows, Mac, Linux, gratuito).
- Data Cleaner (Windows, Mac, Linux, de pago, dispone de versión gratuita).
- Trifacta (Mac, Windows, de pago, dispone de versión gratuita)
También hay lenguajes de programación que, si dispones de conocimientos técnicos, pueden serte útiles:
Documenta el proceso
Es importante documentar el proceso que has seguido para alcanzar tus conclusiones a partir de los datos de origen. De esta manera, cualquiera puede seguir el mismo proceso que tú has seguido para validar tu trabajo, y si en algún punto se produce algún error es fácil caminar hacia atrás y corregirlo.
De cara a documentar tu proceso de datos, te recomendamos:
- Almacena siempre una copia de los datos sin modificar, tal y como estaba cuando la descargaste la primera vez. Anota también la fecha y hora en la que obtuviste los datos de origen.
- Si trabajas con hojas de cálculo, escribe en un documento de texto los pasos que vas dando y en qué orden, y ve generando versiones de tu hoja de datos tras cada paso significativo.
- Herramientas como 'OpenRefine' van generando un registro de los pasos que has ido dando sobre el conjunto de datos. De este modo, puedes extraer la definición de los pasos que has realizado sobre los datos y publicarlo junto con tus datos tratados, de manera que cualquiera pueda reproducir tus acciones.
- Si estás escribiendo código, puedes utilizar una herramienta de tipo notebook como Jupyter, Zepellin o R_Studio, en los que se presenta el código desarrollado junto con su explicación.
- Particularmente si estás trabajando con datos en formato textual (p.ej. en CSV), es buena idea que utilices un sistema de gestión de versiones como Git, y almacenes los datos en un repositorio público como Github o Bitbucket. Puedes incluir en el mismo repositorio una descripción de los datos en formato estándar, como recomienda este post de Open Knowledge Foundation (inglés), así como el código fuente del proyecto que estás desarrollando. Si no conoces Git y Github, te recomendamos esta introducción.
Si necesitas más información sobre cómo documentar un proyecto de datos, te recomendamos que consultes nuestro tutorial:
Interpreta los datos
A la hora de interpretar los datos, es importante tener presente la pregunta que nos hacíamos en la definición inicial del proyecto. Habitualmente la respuesta que ofrezcas va a tomar una de las siguientes formas:
- Una medida: A veces la respuesta es una medida, una cantidad en concreto. Por ejemplo, si estamos construyendo una aplicación para consultar los tiempos de llegada de los transportes públicos, la respuesta correcta puede ser "el autobús llegará a tu parada dentro de 5 minutos". Habitualmente la respuesta será más rica si aportas información de contexto que ayude a poner en perspectiva el dato aportado. Por ejemplo, podemos decir que el presupuesto en sanidad de la Junta de Andalucía en 2018 es de 9.735.462.428 €, pero ese dato por sí solo es difícil de interpretar. Para ayudar a contextualizarlo, podemos seguir varias estrategias:
- Proporción: Por ejemplo, podríamos indicar que Sanidad supone el 28% del presupuesto total.
- Comparación interna: Por ejemplo, podríamos decir que el presupuesto de Sanidad equivale aproximadamente a la suma del presupuesto de Educación y de Protección Social.
- Comparación externa: También se puede poner en contexto el dato comparándolo con otro externo. Por ejemplo, podríamos indicar que el gasto en Sanidad en Andalucía en 2016 es similar a los ingresos por impuestos especiales al tabaco en 2016 en España.
- Una evolución temporal: En ocasiones, más que el dato aislado interesa presentar una tendencia a lo largo del tiempo; por ejemplo, la evolución del gasto sanitario per cápita en Andalucía en los últimos cinco años. Particularmente si trabajas con periodos de tiempo amplios, es importante que tengas en cuenta la inflación (la disminución en el poder adquisitivo de la moneda); para ello, puedes utilizar como criterio de compensación el índice de precios al consumo de España o, si estás trabajando con datos internacionales, los datos de inflación de la OCDE.
- Una comparación espacial: También te puede interesar tener en cuenta la dimensión territorial de los datos. Por ejemplo, podríamos comparar el presupuesto en sanidad de Andalucía con el de otras regiones. En todo caso, al comparar con datos externos hay que tener en cuenta el contexto de los datos; por ejemplo, cada región presta atención sanitaria a su población, por lo que las regiones menos pobladas tendrán lógicamente un gasto total menor que las más pobladas. Por este motivo, es preferible dividir el gasto sanitario total entre el número de habitantes (gasto per cápita), y comparar este dato.
- Una correlación: En ocasiones te puede interesar mostrar si dos variables presentes en tus datos guardan algún tipo de relación entre sí. Por ejemplo, puedes comparar el gasto sanitario per cápita con la esperanza de vida en diferentes países, y analizar si existe una correlación entre ambos valores (cuanto mayor es el gasto, mayor es la esperanza de vida) o no. Ten cuidado de no confundir correlación con causalidad (el que exista una relación entre dos valores no implica que haya una relación causa-efecto entre uno y otro), y trata de introducir también otras variables que puedan ayudar a comprender mejor la realidad (por ejemplo, la edad media de la población en cada país, si el sistema sanitario es mayoritariamente público o privado...).
También te puede interesar:
- Empiece por los datos, termine con una historia (Manual de Periodismo de Datos)
Representa los datos
Los datos como tales son invisibles; son cadenas de bits almacenadas en la memoria de dispositivos electrónicos. Para poder leerlos e interpretarlos necesitamos representarlos, aunque sólo sea organizándolos en una tabla de datos con filas y columnas, como hacen los programas de hojas de cálculo.
Hay muchas maneras de visualizar los datos: tablas de datos, gráficos, mapas, infografías... En este apartado repasaremos brevemente cómo elegir una visualización adecuada en función de nuestros objetivos y qué herramientas podemos utilizar para generar estas visualizaciones.
Elige una visualización
Elegir una buena visualización es crucial para hacer comprensibles los datos. Hay muchos tipos de visualizaciones: gráficos de barras, de tarta, de líneas, de distribución, mapas... Cuál es el gráfico más adecuado en tu caso va a depender fundamentalmente de cuál es tu objetivo al elaborar el gráfico. Algunos de los gráficos más habituales son:
- Los gráficos de barras y de columnas son útiles para comparar valores entre sí (por ejemplo, el gasto per cápita en sanidad entre distintas regiones). Si se comparan los datos a lo largo del tiempo, la medida de tiempo (meses, años...) se suele ubicar en el eje horizontal (y).
- Los gráficos de líneas suelen utilizarse para representar tendencias o evoluciones a lo largo del tiempo, particularmente en los casos en los que es necesario representar muchos puntos de datos (por ejemplo, para representar la temperatura máxima en una ciudad cada día a lo largo de un año). Puede introducirse más de una línea para representar valores distintos sobre la misma escala (por ejemplo, para representar la temperatura máxima y la mínima en un lugar, o la temperatura máxima en dos ciudades distintas).
- Los gráficos de áreas son similares a los de líneas, pero en ellos se rellena el espacio entre las distintas líneas. Son útiles para representar simultáneamente la tendencia global de un valor y su descomposición en partes. Si el número de valores a representar no es muy alto, puede obtenerse un efecto similar mediante los gráficos de barras apiladas.
- Los gráficos de tarta son útiles para representar de manera sencilla la composición de algo, reflejando la proporción entre los distintos valores. Un efecto similar se puede obtener con los diagramas de árbol o treemaps.
- Los gráficos de dispersión representan los datos como puntos en un plano de acuerdo con dos variables. Se utilizan habitualmente para mostrar la correlación entre dos variables (por ejemplo, al representar todos los países del mundo ubicándolos en el plano por gasto sanitario per cápita y esperanza de vida). Puede incorporarse una variable adicional al gráfico modificando el color de los puntos o convirtiéndolos en burbujas de diferente tamaño (p.ej. la población total del país o la región en la que se encuentran).
- Los mapas representan los datos de acuerdo con su ubicación geográfica. Son útiles para mostrar patrones en la distribución espacial de los datos (por ejemplo, los lugares de la red viaria donde hay más accidentes de tráfico). Un tipo especial son los mapas cloropléticos o cartogramas, en los que en lugar de puntos se representan regiones coloreadas de acuerdo a un patrón relacionado con un valor de los datos.
También te puede interesar:
- Tipos de gráficos (pdf, Instituto Nacional de Estadística)
- El uso de visualizaciones para narrar historias (Manual de Periodismo de Datos)
- Sugerencias de gráficos (Taller de Periodismo de Datos)
Genera la visualización
Hay muchas herramientas que te pueden ayudar a generar la representación de tus datos que necesitas. A continuación te presentamos algunas de ellas, de las más sencillas a las más complejas:
- Catálogo de datos de la Junta de Andalucía: El catálogo de datos de la Junta de Andalucía te permite construir visualizaciones sencillas a partir de los datos que se presentan en formato de tabla (excel o csv). En estos casos, puedes generar representaciones sencillas (de barras, líneas o puntos) en el propio catálogo de datos. Puedes ver cómo en nuestro tutorial Visualizar datos dentro del Catálogo de Datos Abiertos.
- Hojas de cálculo: Los programas de hojas de cálculo, como Excel, LibreOffice o Google hojas de cálculo, también permiten construir visualizaciones como las que vimos en el punto anterior. Si necesitas ayuda, consulta la información del propio programa o revisa nuestro tutorial Trabajar con los datos en hojas de cálculo con Libreoffice Calc.
- Aplicaciones de visualización de datos: Hay otras muchas aplicaciones que te pueden ayudar a construir visualizaciones más atractivas a partir de tus datos, y a compartir los resultados a través de internet. Una de las más utilizadas es Tableau Public.
- Lenguajes de programación y librerías: Si tienes algunos conocimientos de informática e interés por aprender, hay algunos lenguajes de programación y librerías que te pueden ayudar a realizar visualizaciones más ricas a partir de tus datos. Por ejemplo, el lenguaje de programación R permite tratar los datos y generar representaciones gráficas estáticas. Por su parte, la librería javascript d3.js es muy útil para construir visualizaciones ricas utilizando HTML, CSS y SVG.
Si quieres aprender a generar visualizaciones ricas con una aplicación gratuita, te recomendamos que consultes nuestro tutorial:
También te puede interesar:
- Selección de herramientas hágalo usted mismo para hacer sus propias visualizaciones de datos (Manual de Periodismo de Datos)
¿Aún tienes dudas?
Si tienes cualquier duda o necesitas más información puedes contactar a través del siguiente formulario.